Model Selection

CLIP Architecture Optimization

# CLIP Architecture Optimization

Vit Giant Patch14 Clip 224.laion2b

Vision Transformer model based on CLIP architecture, designed for image feature extraction, trained on the laion2B dataset

Image Classification

Convnext Large Mlp.clip Laion2b Ft Soup 320

ConvNeXt-Large image encoder based on CLIP architecture, fine-tuned on the LAION-2B dataset, supporting 320x320 resolution image feature extraction

Image Classification

Quiltnet B 16 PMB

A multimodal foundation model based on ViT-B/16 visual encoder and PubMedBERT text encoder trained on the Quilt-1M pathology video dataset

A CLIP ViT-B/32 vision-language foundation model trained on the Quilt-1M pathology video dataset, specifically designed for histological analysis

AltCLIP-m9 is a multilingual CLIP model supporting 9 languages, providing support for multilingual text-to-image models.

Transformers Supports Multiple Languages

Featured Recommended AI Models

AIbase

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

© 2025AIbase